Introdução à Programação em Triton: Dos Operadores Eager ao Paralelismo Baseado em Blocos

Transição de Modo Eager do PyTorch para Triton requer uma mudança de visão de tensores como objetos monolíticos para vê-los como coleções de blocos discretos e gerenciáveis blocos ou ladrilhos.

1. Tensores do PyTorch versus Triton

É essencial distinguir tensores do Triton de tensores do PyTorch. Um tensor do PyTorch é um objeto Python do lado host envolvendo forma, tipo de dados, dispositivo, deslocamentos e metadados de armazenamento. Em contraste, o Triton trabalha com os ponteiros de dados brutos dentro de blocos de memória específicos, permitindo otimizações de nível muito mais baixo.

2. O Engasgamento do Modo Eager

Na execução padrão em modo eager, cada operação (por exemplo, Adição seguida de ReLU) exige uma inicialização separada do kernel e uma idá e volta na memória global. Este é o principal gargalo no cálculo moderno em GPU. O Triton supera isso por meio da fusão de operações dentro de um único kernel que processa blocos de dados (por exemplo, 128, 256 ou 512 elementos) diretamente na memória integrada.

3. O Paradigma Baseado em Blocos

Em vez do pensamento de nível escalar dos threads do CUDA, o Triton utiliza SPMD (Programa Único, Múltiplos Dados) ao nível do bloco. Você escreve um único kernel, e o Triton lança múltiplas instâncias em uma grade. Cada instância usa seu program_id para calcular qual "pedaço" de memória ele possui.

4. Configuração do Ambiente

Para começar, instale o Triton em um ambiente limpo (usando Conda ou venv) para garantir que não haja conflitos de dependências com ferramentas CUDA existentes: pip install triton.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

What is the primary difference between a PyTorch tensor and a Triton tensor within a kernel?

Triton tensors contain Python metadata like strides; PyTorch tensors are raw pointers.

A PyTorch tensor is a host-side object wrapping metadata; a Triton tensor represents blocks of data processed at the compiler level.

There is no difference; they are the same object.

Triton tensors are stored on the CPU, while PyTorch tensors are on the GPU.

QUESTION 2

Why is 'Eager Mode' considered a bottleneck for modern GPU performance?

Because it uses too much CPU memory.

Every operation requires a separate kernel launch and a global memory round-trip.

It cannot handle floating-point numbers.

It lacks support for the Python language.

QUESTION 3

What is the result of installing Triton in a 'dirty' environment with conflicting CUDA toolkits?

Triton will automatically fix the CUDA path.

It may lead to library version mismatches and kernel compilation errors.

The GPU will run faster due to multiple toolkit options.

Triton does not use CUDA, so there is no conflict.

QUESTION 4

Draw the mapping from pid to index range for N=1000, BLOCK_SIZE=256.

pid 0: [0, 256); pid 1: [256, 512); pid 2: [512, 768); pid 3: [768, 1000)

pid 0: [0, 1000)

pid 0: [0, 256); pid 1: [257, 512); pid 2: [513, 768); pid 3: [769, 1000)

pid 1: [0, 256); pid 2: [256, 512); pid 3: [512, 768); pid 4: [768, 1000)

QUESTION 5

In block-based parallelism, the instruction shift moves from 'compute one element' to:

'Compute one entire tensor'.

'Compute one block of 128/256/512 elements'.

'Compute one scalar at a time'.

'Let the CPU handle the math'.